vlwkaos' digital garden

유니코드 정규화

컴퓨터로 글자를 표현하는 여러 방법 👇

SubtypeExamples
Combining sequenceÇ ↔ C+◌̧
Ordering of combining marksq+◌̇+◌̣ ↔ q+◌̣+◌̇
Hangul & conjoining jamo가 ↔ ᄀ +ᅡ
Singleton equivalenceΩ ↔ Ω

컴퓨터는 모양이 같은 글자이더라도 유니코드가 다르면 다른 글자로 인식한다.

이를 해결하기 위해 비슷한 모양의 글자를 하나의 유니코드로 통일해야한다. 통일 규칙은 이 엄청나게 긴 유니코드 정규화 문서에서 확인할 수 있다.

하지만 정규화를 하게되면 실제 정보가 사라진다는 단점이 있다.

유니코드 정규화